Nature 助力三代全长微生物多样性“种”水平精准注释
摘要
近几十年来,基于 16S rRNA 基因测序是细菌研究的主流。但是,最近才实现 16S 全长微生物多样性的高通量测序。作者基于生信分析和测序实验重新评估了16S基因在物种和菌株水平上的分类潜能。作者证明利用短读长的测序平台对 16S 部分可变区进行测序,无法达到全长 16 rRNA(~1500bp)测序的分辩率。进一步证明全长微生物多样性测序技术可以准确的反映 16S 基因组内细微的核苷酸替换(除插入/缺失)。现在的分析方法应该考虑基因组内不同 16S 基因拷贝间的变异。特别是,适当处理全长 16S 基因组内拷贝的变异有可能在物种和菌株水平上提供细菌群落的分类学分辨率。
中文题目:16S rRNA 基因测序“种”水平和“菌株”水平微生物组分析的评估
英文题目:Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis
期刊:Nature Communications
影响因子:11.878
作者:Jethro S. Johnson
单位:美国 Jackson 基因组医学实验室
材料与方法:
材料:构建模拟细菌群落、4 名健康人粪便、381 个分离菌株
方法:PacBio V1-V9 区测序,Illumina MiSeq V1-V3 区测序, Illumina NextSeq 宏基因组测序。
研究结果:
1、全长 16S 基因提供更好的分类学分辨率
16S rRNA 基因全长约 1500bp 含有 9 个可变区(图 1a )。大多数研究是利用 Illumina 测序平台对部分可变区域( V4、V6、V1-V3 和 V3-V5)进行测序。目前由于 PacBio 和 Oxford Nanopore 测序平台读长超过 1500bp,便可以实现 16S 全长基因的高通量测序研究。
作者从公共数据库(Greengenes)下载了一套非冗余的全长16S 数据,设计了不同的可变区扩增区域(图 1a )。假设每条序列为一个物种,根据常用的分类方法来研究不同区域在种水平上的分辨能力。还对不同扩增区域以 97%、98% 和 99% 相似性聚类得到的 OTUs 差异进行了研究。
作者发现部分可变区域只能不同程度的区分菌群物种(图 1b )。V4 区域鉴定能力最差,56% 的扩增子的未能注释到物种。全长 16S 基因可以将所有序列准确的鉴定到“种”水平。不同的可变区在识别细菌分类上表现出了偏差(图 1c )。不同可变区的选择极大地影响了聚类得到的 OTU 数量。当以 99% 的序列相似性进行聚类时,部分可变区域均未能重现真实的数量,V4 区域最差(图 1d )。
图 1 16S rRNA 基因可变区比较
2、16S 基因拷贝变异反映菌株水平变异
作者对 36 种细菌组成的模拟群落进行了 PacBio CCS 测序,用来研究同一基因组内 16S 序列的差异以及测序是否可以解决这种差异。将 PacBio 测序得到的全长 16S 序列与参考数据库进行比对,评估这种测序方法的准确性。
CCS 测序产生的 16S 全长 reads 中替换错误率低,一定比例的替换可能是由物种基因组内 16S 多态性引起的变异。例如,测序得到 reads 与大肠杆菌 K-12 substr. MG1655 比对的核苷酸替换与参考基因组中 7 个 16S 序列比对结果完全一致(图 2a 和 c )。
尽管基因组内 16S 序列变异使群落级分析复杂化,但也可能会提高 16S 基因对亲缘关系近的菌群的鉴别能力。例如,大肠杆菌 K-12 MG1655 和肠出血性大肠杆菌 O157 Sakai 存在足够多的可以用来区分的核苷酸变异(图 2c 和 d )。基于部分可变区测序时基因组内 16S 序列变异在亲缘关系近的细菌鉴定能力可能会减弱。例如,大肠杆菌 K-12 MG1655(图 2c )与 O157 Sakai(图 2d )不同的 SNPs 存在于可变区域 V1、V2、V6和V9。
图 2 大肠杆菌 16S rRNA 基因序列的多态性
3、16S 多态性可以在体内解决
对 4 个健康志愿者粪便进行 V1-V9 区的 PacBio CCS 测序,V1-V3 区的 Illumina MiSeq 测序和 Illumina NextSeq 宏基因组测序。对 V1-V3 和 V1-V9 两种测序方法中 Bacteroides 属水平相对丰度进行比较发现两个个体中 Bacteroides 相对丰度(~10–25% )低,另外两个个体相对丰度(~40–60% )高(图 3a )。然而,宏基因组测序结果显示拟杆菌属下物种多样性更高,不同个体中拟杆菌为优势菌群的物种不同(图 3b )。当以 99% 相似性进行 OTU 聚类时, V1-V9 和 V1-V3 测序均能反映“种”水平的变异(图 3b ),但是 V1-V3 测序未能检测到 Bacteroides intestinalis。
作者将属于 B. vulgatus V1–V9 OTUs 的序列与一条代表性的序列进行比对(图 3b )。将得到的核苷酸替换与 NCBI RefSeq 数据库中的两个参考基因组预测的核苷酸替换进行比较(图 3c 和 d )。大部分核苷酸变异来自基因组内多态性,测序错误造成的变异很低,远远低于预期的最小 ~14% 的频率(图 3c )。
总之,结果表明,人肠道微生物组的全长 16S 测序可以准确地解决同一基因组内 16S 基因拷贝之间的单核苷酸替换的问题。这种变异的存在表明,必须对 16S 序列进行聚类以反映有意义的分类学单位。以 99% 的相似性聚类 OTU 表明全长 16S 具有提供物种甚至菌株级分类学分辨率的潜力。
图 3 检测人体粪便样本中的拟杆菌
4、基因组内 16S 多态性非常普遍
作者试图确定这种拷贝变异在人类肠道菌群中出现的程度,以及这种方法是否可以常规地用于区分同一物种的不同菌株。
从图 3 中健康个体肠道中分离培养 381 个菌株。随后对分离菌株进行了全长 16S 基因测序,并对测序 reads 进行了比对,以鉴定出具有基因组内 16S 基因拷贝变异特征的核苷酸替换。分离菌株中含有 58 个物种,对分离菌株以 99% 的相似度进行聚类,得出 61 个 OTU。
在 381 菌株测序中共有 349 个(61 个 OTU 中的 54 个)具有一个或多个 SNP ,表明 16S 多态性非常普遍,去除测序误差共鉴定出 205 个独特的 SNP(图 4a )。
值得注意的是,比较相同 OTU 的 SNP 时发现 SNP 的频率存在差异,这表明亲缘关系相近的物种基因组内 16S 基因拷贝存在差异。图中显示了三个细菌的不同核苷酸替换(图 4b-d ),与大肠杆菌实验中所证明的基本一致(图 2b )。
总之,结果表明,人肠道微生物中的可培养的细菌存在 16S 多态性,这些基因多态性有可能解决相同物种不同菌株鉴定的问题。
图 4 人肠道微生物组 16S 基因多态性的研究
讨论:
本文四个实验结果证明基于 16S 基因测序的微生物组研究可以实现细菌分类学的鉴别。在考虑到 16S 基因拷贝变异的同时,全长 16S 基因测序可以实现“种”水平和“菌株”水平的鉴定。全长 16S 测序技术相比于目前的二代测序技术在“种”水平和“菌株”水平鉴定上更能反映群落的真实情况。16S 基因内的变异不容忽视,适当的聚类阈值可以更准确地对微生物组进行“种”水平的鉴定,人肠道微生物中 16S 多态性普遍存在。总之,研究结果表明,对全长 16S 测序数据进行的适当处理可以提高分类学分辨率。
1